学术排名弊大于利1
学术排名在学术界有着很强的影响力。《美国新闻和世界报道》(USNWR)杂志发布的大学排名可以帮助本科生找到“完美的学校”。对于那些未来的研究生来说,USNWR发布的研究生项目排名,往往是他们在做决定时最需要考虑的因素。《世界大学学术排名》(也称为《上海排名》)就是目前比较有影响力的一个排名,这个排名受到大学校长和校董会的高度关注。在过去的几年里,许多不同形式和风格的新型学术排名相继出现。
然而,学术界也对这种排名的方法及其巨大的商业影响力深感不满。在最近的每两年一次的会议上,计算机研究协会(CRA)专门为这一主题举办了一次研讨会(见http://cra.org/events/snowbird-2016/#agenda)。会议声称,“我们协会的许多会员目前感到,非常需要北美的计算机科学(CS)部门给出一个权威的排名”,并抛出问题:“CRA应该参与创建排名吗?”提出这个想法的根据是,CRA通过参与创建“明智的排名”,可以更好地为计算机研究界服务。
USNWR目前用于计算机科学研究生项目排名的方法是非常有争议的。这种排名完全是基于“名誉地位”,这就要求系主任和研究生院院长需要将每个研究生项目分为1~5级。参加这样的名誉调查也已经很多年了,我可以确定的是,评价100多个项目只需要花大约一两秒的时间,就可以给出分数。很显然,我用不着怎么思考就可以打出分数。事实上,我给出的分数显然受到了去年排名的影响。对于那些拥有较好名誉的大学来说,它们的研究生项目自然会因上级部门的光环效应而得到较高的排名,这早已是一个众所周知的“秘密”。虽然这种名誉排名明显在学术决策中发挥了主要作用,然而我认为,它们没有任何学术价值。
但是,有个问题比目前USNWR研究生项目排名采用的有缺陷的方法还要严重,那就是通常学术排名会对个人的学术决策造成很大的误导。一个学术项目或计划是具有许多属性的高度复杂实体。学术决策通常是多目标优化问题,其中目标函数是因人而异的。一个维度的排名提供了一个比较容易优化的目标函数。然而,这样的决策忽略了个人喜好、每个项目所独有的优点和缺点等因素,这些因素之间有着复杂的相互作用。我认为,依靠排名做决策就是懒于思考的表现。
此外,学术排名会给学术界带来负面影响。这样的排名通常是通过设计一个从项目属性的复杂空间到一维空间的映射关系来计算的。显然,存在许多这样的映射。每个排名基于一个特定的“方法”,即一个特定的排名映射。映射的选择是完全随意的,并且反映了排名组织的一些“判断”。但是,这种判断的学术价值是受到质疑的,而且商业排名组织会定期调整他们的映射,以便更改排名次序。毕竟如果你是以销售排名信息为业务,那么你只有通过调整排名次序才能盈利。将这样的排名用于学术决策,实际上是让第三方的商业利益损害我们的学术价值。
因此,对于“CRA应该参与创建排名吗?”这个问题,我给出的答案是“绝对不应该”。我认为,所谓“明智的排名”很难下一个明确的定义。在2010年的时候,美国国家研究委员会试图提出一个基于证据的排名映射,这被公认为是一个臭名昭著的失败案例。此外,我认为CRA应该通过一项决议,这个决议的内容是鼓励其会员停止参与USNWR调查,并阻止学生将这些排名用于自己的学术决策。相反,CRA应该创建一个数据门户,为公众提供有关研究生项目的相关信息,帮助他们作出慎重的学术决策。这些信息可以从CRA已经做了40多年的Taulbee调查中进行收集,这个调查不仅广受好评,目前还有了扩展版。除此之外,各种开源数据库也是一个重要的信息来源。CRA还可以提供应用程序编程接口(API),来使用户能够根据提供的数据构建自己的排名。
我认为,学术排名是弊大于利的。我们有责任更好地告知公众事实,应该停止“玩排名游戏”,并向公众提供相关信息。实现这个目的的唯一方法是计算机研究团体需要发出一致的声音。 ■
作 者:
摩西·瓦尔迪(Moshe Y. Vardi) :
美国莱斯大学,《美国计算机学会通讯》主编
评论一
瓦尔迪教授认为,计算机科学项目的线性排名是没有意义的,在这一点上我是举双手赞成的。和很多其他事情一样,排名结果会取决于许多因素的影响。因此我的结论是,排名应该只有高、中、低3个等级。例如,即便我经历评审了多年的研究生项目申请,但是由于多种因素会影响GRE成绩的高低,所以我仍然不能将这3个等级进一步细化。同样的道理也适用于计算机科学项目的评估。
鉴于上面的考虑,所以我提出以下划分等级的方式:杰出、优秀和普通。例如,在评估计算机科学本科项目的质量时,我们将项目划分成不同的分组,其中所依据的深层标准取决于需要评估的内容。
杰出的本科项目:该项目能够吸引到来自全国的顶尖本科生;该项目的考查是极其严格的,只有那些真正优秀的学生才可能申请得到并成功完成;通常该项目的毕业生在找到第一份工作时就可以获得高薪,或者他们被录取到同样是杰出的计算机科学研究生项目。
优秀的本科项目:该项目会定期面向全州、甚至全国范围内招生;该项目的考查也是比较严格的,以便学生能够认真对待并成功完成;通常该项目的毕业生第一份工作的薪水也是比较可观的,或者他们被录取到优秀的、杰出的计算机科学研究生项目。
普通的本科项目:该项目可以吸引到大部分地区的学生,当然学生的水平可能会参差不齐;严格的项目考查在坚持专业标准的同时,也能够保证大多数学生可以成功完成;通常该项目的毕业生会从事区域性的工作,并且初期薪水较低,或者他们被录取到普通的、优秀的计算机科学研究生项目。也有坊间传闻表明,一个主观能动性强的学生虽然处于一个普通的本科项目中,但是在指导教师的帮助下,毕业以后很可能会在第一份工作中或者杰出的研究生项目中取得更大的成功。
在上面提到的3种分类中,机构名称可以按照字母顺序列出。我们应该提出一组不同的标准用于研究生项目的分类,但是本科项目的分组级别比同学科的研究生项目分组级别低是不常见的。
上面只是我个人的一点拙见,欢迎大家进行深入的讨论和争辩。
罗德·奥尔德侯福德(Rod Oldehoeft) 科罗拉多州州立大学,计算机科学系主任和荣誉教授
评论二
我认为,除了多目标性和映射过多以外,排名这种事情还存在一种更为普遍的问题:排名“元效应”。那就是排名系统总是会成为一个被抨击和操纵的对象。
以谷歌网页排名为例,假设网页是被“诚实地”创建的,我们认为这是民主的表现。网页上高质量的内容自然会受到网友的青睐,因为它会将其他类似的网页关联起来。但是,这里面没有考虑“元效应”:当网页集合以这样的方式被链接,从而来操纵页面排名时会发生什么?这是许多搜索引擎的优化算法应该教给我们的东西:创建一些本质上是虚假的、但名义上合法的网页,链接到那些你想要提高点击率的页面。结果就会生成大量名义上合法但本质上是虚假的网页。
一个排序系统应该将“元效应”作为先验考虑进去,当用户钻制度的空子时,这个系统还依然能够保持民主。如果这有可能发生的话,那将是非常有趣的事情。当然,学术引用排名与其他排名有很大的不同,传统上是基于无环图的,但“元效应”在这里依然适用。在我看来这就是排名的最大弊端(没有之一)。
斯科特·科顿(Scott Cotton)
尝试接纳学术排名2
没有人喜欢排名下降的感觉。例如,我的财务状况图的信息量比我的信用分数多得多。甚至我们可以通过学术的办法来解决系统中的弱点,从而计算出这个分数。正如摩西·瓦尔迪在他的编辑来信《学术排名弊大于利》中所提到的那样(2016年9月),每个人都可能会认为这个数字是很不完美的。然而,它却被用来做一些对我很重要的决定。所以我非常关心我的信用评分是多少。鉴于财务决策对信用评分的潜在影响,我们中的许多人甚至可能已经对做财务决策下了很大的功夫。
作为一名学术工作者,我首先是数字的生产者,比如我给我的学生们打分。我会尽量让给出的成绩能够准确无误地反映出学生们对我课程中素材的掌握程度。但是,我知道这个成绩肯定是不能完全反映出来的,这个成绩充其量反映的是他今天所学的知识。两年后,当一个未来的雇主看到这个成绩的时候,他很可能面对的是两种截然不同的学生:A学生通过死记硬背的方式来应付考试,并在考完后完全忘记了所学素材;B学生不但没有忘记所学内容,反而通过随后的实习工作加深了他对素材本质的理解。所以雇主必须要学会在不看成绩的情况下,来深入了解学生的优点和缺点。
作为一名学术工作者,我同样也是数字的消费者。大多数的大学,包括我所在的大学,都比较关注学生标准化的考试成绩。没有人认为考试成绩的高低与未来成就的大小有必然的联系。但是二者之间至少有一些相关性,考试成绩通常作为选拔人才的首道门槛。我们不得不承认的是,有些学生由于在考试成绩上被刷下来,所以导致他们没有被认真对待,但是他们在以后的工作中一样可以做得很好。一小部分美国的高校最近已经取消了将标准化考试成绩作为本科生录取的条件。我很欣赏他们的勇气和魄力。其他大多数高校没有去这样做,因为这需要大量的工作来支撑这些数字。即使有更好的决策方式,这个过程也需要付出太多的努力才会实现。
作为一名学术工作者,我非常认同我所在的部门以及其他大学的同行部门存在有多种多样的属性。我知道,将多种不同的属性减少成一个单一的数字是多么的不合理。但我也相信,在未来一定有学生、父母或者其他人会发现一个有用的数字,它可以代替现在单一的量化标准。当我设法招收学生来密歇根州的时候,我会鼓励他们考虑多种因素。但我不能无理地要求他们不要去看那些排名数字。所以我理应尽我所能,使这些数字尽可能完善,并努力构建一个系统,这个系统可以给出尽可能公平的数字。我认为,接近完美是不可能的,但是我们越完善这些数字,我们的生活才会越好。 ■
作 者:贾格迪什(H.V. Jagadish) :密执安大学
《学术排名弊大于利》作者回复
我在编辑来信中没有质疑是否需要对学术项目进行定量评估。然而,我认为,贾格迪什博士在给学生成绩的时候,不仅仅是对他们进行排名。这些学生在毕业之后,他们的成绩单上会显示每门课的成绩,而不只是他们的班级排名。他认为,我们应该学会接受这些数字(这点我是同意的),但这并没有解决任何一个学术排名的弱点。
摩西·瓦尔迪
评论 学术排名会带来更多的负面后果
我极其赞同瓦尔迪在编辑来信里提出的观点(2016年9月)。无论是针对美国的排名系统(例如《美国新闻和世界报道》),还是针对全球性的排名系统(例如《时代高等教育》、《世界大学声誉排名》、《QS大学排名》和中国上海交通大学编制的《世界大学学术排名》),它们近年来都已经占据了一席之地,并且引起了政府和资助机构的高度关注,媒体也给予了广泛的报道。全世界许多大学通过设立相关部门来与这些排名机构进行对接,并提供给他们所需的多种数据,以促进这些大学的对外交流和公共关系活动。还有证据表明,这些排名表正在开始对资源分配和雇用决策造成负面的影响,尽管它们有明显的不足和局限性。
我曾经被要求在两个排名系统的小组服务,但后来我不得不放弃完成调查问卷。因为在针对许多大学的各种难以回答的和比较性的问题时,我仅仅是没有足够的信息以提供诚实的答复。这些排名机构很少公布他们实际调查了多少“专家”或者他们的调查响应率是多少。至于相对“客观”的《世界大学学术排名》,它所采用的方法包括统计获得“诺贝尔奖”和“菲尔兹奖”的校友及员工数、汤森路透的高引用研究人员数、在《自然》(Nature)和《科学》(Science)期刊上发表的论文数、被科学引文索引(SCI)和社会科学引文索引(SSCI)检索的论文数,以及一所大学的“人均绩效”这6个指标。由于一所大学往往是人数众多、构成复杂、松散耦合的组织,只采用6个狭隘的指标,究竟能够在多大程度上反映出现代大学的整体水平,在这一点上我们还不是特别清楚。统计《汤森路透》或者ISI的高引用研究人员数,也会加剧一些众所周知的引用不当行为发生(比如自引过多、循环引用和引文堆积)。正如瓦尔迪所指出的,商业实体(尤其是《时代周刊》、QS、《美国新闻和世界报告》和汤森路透等期刊和机构)在排名中的关键作用也是一个需要考虑的问题。
约瑟夫·戴维斯(Joseph G. Davis) 澳大利亚悉尼
1本文译自Communications of the ACM, “Academic Rankings Considered Harmful!”, 2016, 59 (9):5一文。
2本文译自Communications of the ACM, “Learn to Live with Academic Rankings”, 2016, 59 (11):8一文。
译 者:
胡欣宇
CCF专业会员。山西农业大学软件学院讲师。博士毕业于中国科学院电子学研究所。主要研究方向为可穿戴计算、生物特征识别等。huxinyu109@126.com
苗启广
CCF理事、本刊编委。西安电子科技大学教授。主要研究方向为计算机视觉、机器学习、高性能计算、大数据分析。qgmiao@xidian.edu.cn
所有评论仅代表网友意见